中转服务 API 价格与实现机制

核对日期：2026-05-13。

1. 结论先行

“中转 API 比官方 API 便宜很多”通常不是单一原因，而是几类完全不同的服务被放在同一个词里：

类型	是否可能合规	为什么看起来便宜	核心风险
正规 AI Gateway / 聚合器	可能合规	统一接入、多供应商路由、Batch、缓存、企业折扣、低价模型路由	仍需看数据处理、计费透明度和供应商合同
企业代理 / 云市场转售	可能合规	批量采购、承诺消费、渠道折扣、统一账单	不一定比官方低，更多是采购便利和合规支持
自建开源模型兼容接口	合规取决于模型许可	用 vLLM、TGI、Ollama 等提供 OpenAI-compatible API，底层不是官方闭源模型	质量、上下文、工具调用和安全能力不等价
灰产中转站	高风险	额度套利、订阅拆分、盗刷账号、模型替换、日志变现、短期补贴	泄露代码/数据、模型降级、账号封禁、法律和合规风险

如果某个中转站宣称“官方同模型、免实名、国内直连、70%-90% 折扣、无限量、零留存”，要默认它不是单纯的技术优化。官方本身确实提供 50% Batch 折扣、缓存折扣、低优先级/弹性处理、企业价等机制，但这些通常不足以稳定支撑“长期低到 1 折”的价格。

2. 官方 API 本身有哪些降价机制

先不要把所有便宜都归因于“黑产”。官方平台已经提供了多种合法降本手段。

2.1 Batch API

OpenAI 官方价格页标明 Batch API 对输入和输出节省 50%，但代价是异步处理，通常适合评测、批量抽取、离线生成、数据清洗，不适合实时对话。

Anthropic Message Batches API 也对标准 API 价格提供 50% 计费，并强调适合不要求立即返回的大批量请求。

Google Gemini API 的付费层包含 Batch API，价格页也展示了 Batch 档位通常低于 Standard 档位。

这解释了为什么某些“离线任务平台”可以比实时官方 API 便宜很多：它们不是拿实时链路硬打折，而是把任务转成异步批处理。

2.2 Prompt / Context Caching

缓存是 Agent 成本差异最大的合法来源之一。

OpenAI 价格页展示了 cached input 的单价显著低于普通 input。例如 GPT-5.5 标准输入为 5.00 美元 / 1M tokens，cached input 为 0.50 美元 / 1M tokens。

Anthropic 的 prompt caching 对 cache read 按基础输入价格的 0.1 倍计费，5 分钟 cache write 是 1.25 倍，1 小时 cache write 是 2 倍。对于 Claude Code、代码仓库分析、长 system prompt、多工具 Agent，缓存命中率高时体感成本会大幅下降。

Gemini 也提供 implicit caching 和 explicit caching。官方文档说明 Gemini 2.5 及更新模型默认启用 implicit caching，explicit caching 可手动启用并提供更确定的成本节省。

2.3 Flex / Priority / Data Residency / 区域路由

官方价格不只有一个档位。OpenAI 价格页展示了 Standard、Batch、Data residency 等处理模式，并说明 Flex processing 用更慢响应和偶发资源不可用换取更低成本。

Anthropic 对数据驻留、云市场、区域/多区域端点有不同价格口径。Google Gemini 价格页也区分 Standard、Batch、Flex、Priority。

因此，一个服务商如果只承诺“低优先级任务更便宜”，可能只是把请求路由到官方的低价处理层；但如果它承诺所有实时高质量请求都长期 1 折，就需要怀疑其他来源。

2.4 企业折扣、承诺消费和云市场

大客户可能通过年度承诺、保底消费、云市场私有报价获得折扣。正规的聚合器或企业代理可能把一部分折扣让给用户，也可能通过统一账单降低采购成本。

但这类折扣通常有合同、发票、DPA、审计、服务条款，不会只靠 Telegram、淘宝、个人收款和一个 base_url 解释清楚。

2.5 低价模型本来就便宜

DeepSeek、Gemini Flash-Lite、Claude Haiku、OpenAI mini/nano 系列和部分开源模型本来就低价。中转服务把“模型族”做成统一入口后，用户容易把便宜模型的价格误解成“顶级官方模型打了巨大折扣”。

例如 DeepSeek 官方价格页在 2026-05-13 显示，deepseek-v4-flash 的 cache hit input 价格远低于多数闭源旗舰模型；deepseek-v4-pro 还存在限时 75% 折扣。这是供应商定价差异，不是中转技术魔法。

3. 合法中转服务是怎么实现的

从工程上看，中转服务并不神秘，本质是一个 LLM Gateway。

3.1 协议兼容：只改 `base_url`

大部分中转站让用户只改一行：

from openai import OpenAI

client = OpenAI(
    api_key="sk-proxy-xxx",
    base_url="https://proxy.example.com/v1",
)

网关侧实现 OpenAI-compatible 或 Anthropic-compatible HTTP 接口，再把请求转换到真实上游。LiteLLM 文档明确把统一接口、成本追踪、认证、预算、负载均衡作为 Proxy 能力；vLLM 也可以直接启动 OpenAI-compatible server，让自托管模型用 OpenAI SDK 调用。

3.2 虚拟 Key 与账本

中转服务不会把上游真实 Key 暴露给客户，而是发自己的虚拟 Key。服务端维护：

proxy_key -> tenant_id
tenant_id -> budget / rate limit / allowed_models
model_alias -> upstream provider / deployment
request_id -> token_usage / cost / latency / status

LiteLLM 的 virtual keys 支持 spend tracking、model access、预算、RPM/TPM 等控制。Cloudflare AI Gateway 也提供 analytics、logging、rate limiting、request retries、model fallback 等能力。

3.3 模型路由

路由器会按价格、延迟、可用性、地域、上下文长度、工具调用支持、数据政策选择上游。

典型策略：

同一模型多账号、多 region、多 deployment 负载均衡。
上游 429 / 5xx 时 fallback 到备用 provider。
低价值请求路由到便宜模型，高价值请求路由到强模型。
超长上下文请求路由到长上下文模型。
对 tool_choice、JSON mode、vision、audio 等参数做能力匹配。

OpenRouter 文档描述了按 provider 排序、fallback、价格优先、吞吐/延迟优先、ZDR 过滤等能力。Cloudflare Dynamic Routing 也支持条件、配额、预算限制、模型 fallback 和版本回滚。

3.4 缓存与批处理

正规网关会尽量利用合法缓存：

对完全相同请求做 response cache。
把稳定 system prompt、工具 schema、仓库上下文放在 prompt cache 前缀。
把离线任务聚合进 Batch API。
对工具结果、RAG 检索结果、网页抓取结果做业务缓存。

Cloudflare AI Gateway 文档说明其缓存可对相同请求直接从 Cloudflare cache 返回，减少上游付费请求。注意这类缓存只适合低风险、非个性化、无敏感输入的场景。

3.5 自托管兼容模型

有些中转服务不是真的转发到官方模型，而是用 vLLM 这类推理服务托管开源模型，然后伪装成 OpenAI-compatible API。这本身可以合法，但必须明确标注底层模型。

问题在于灰产服务可能把“兼容接口”包装成“官方同模型”。技术上你看到的是 /v1/chat/completions，但底层可能是 Qwen、GLM、DeepSeek、Llama 或量化小模型。

4. 灰产中转为什么能低到离谱

根据 ChinaTalk 2026-05-05 对 Claude “transfer station / 中转站”生态的调查，以及 Anthropic 2026-02-23 关于 distillation attacks 的披露，异常低价主要来自以下组合。

4.1 免费额度和优惠套利

灰产上游可能批量注册账号，薅免费额度、教育/创业计划、促销 credit、云市场赠金或地区折扣。单个账号额度不大，但账号池足够大时可以摊薄成本。

这类方式很容易被官方风控识别和封禁，所以服务质量会表现为：时好时坏、频繁换域名、换 Key、换模型名、突然下线。

4.2 订阅拆分

部分服务会把 Claude Max、ChatGPT、Gemini 等面向个人或团队的订阅拆成 API 形式转卖，给每个用户分配 token/hour 或并发额度。

这里的套利点是：订阅是固定月费，而官方 API 是按 token 计费。只要使用模式、并发和限制没有被平台及时识别，中转方就能短期获得价差。

但这通常违反服务条款，也不适合生产系统。订阅产品的速率、上下文、工具、会话状态和 API SLA 也不等价。

4.3 盗刷、盗号和虚假身份

更黑的成本来源是盗刷信用卡、购买被盗账号、批量身份验证、短信平台和 KYC 绕过。Anthropic 披露过工业级蒸馏攻击，涉及约 24,000 个欺诈账号和超过 1,600 万次 exchanges；其中还提到单一代理网络曾同时管理超过 20,000 个欺诈账号。

这类服务的价格可以极低，因为成本最终由被盗账号、被盗信用卡、上游平台和下游用户承担。

4.4 模型替换和“掺水”

用户请求 claude-opus，中转方可以实际转到：

Claude Sonnet / Haiku
Gemini Flash / Flash-Lite
DeepSeek / Qwen / GLM
自托管量化模型
过期旧模型

由于 API 响应里的 model 字段可以被中转服务重写，普通用户很难仅凭返回字段证明底层模型。只有复杂推理、工具调用、长上下文和固定评测集才能暴露差异。

这也是很多低价站的核心利润来源：按旗舰模型收费，实际消耗小模型成本。

4.5 Token 计费不透明

中转方还可以通过计费层赚钱：

夸大 input/output token 数。
缓存命中按未缓存价格卖给用户。
官方 Batch 50% 成本按实时价格卖给用户。
把失败请求、重试请求、工具调用重复计费。
用人民币、美元、点数、倍率混合定价，让真实单价不可比较。

如果平台不提供原始 usage、上游发票映射、请求级成本明细，用户无法审计。

4.6 日志变现

最危险的一层是：用户的 prompt、output、tool calls、代码上下文、错误日志和人工修正结果本身就是资产。

对代码 Agent 来说，这些日志可能包含：

私有仓库代码。
API Key、数据库连接串、内部域名。
真实 bug、修复方案、测试结果。
开发者偏好和业务逻辑。
Agent 多轮轨迹和高质量 reasoning 样本。

ChinaTalk 的调查指出，日志可能进入训练数据、数据中介、诈骗或勒索链条。这个机制解释了为什么某些中转站可以低到 1 折甚至更低：用户同时是付费客户，也是数据供应方。

4.7 短期补贴和资金盘

还有一类低价不是来自技术，而是获客补贴。服务方先低价吸引开发者充值，积累余额和代理层级，然后涨价、限制提现、封号或直接跑路。

判断标准很简单：如果价格低到不能被官方折扣、缓存、Batch、企业价解释，又没有合同、发票、审计和数据条款，那它大概率需要从别处赚钱。

5. 和官方 API 的真实差异

维度	官方 API	正规网关	高风险中转站
模型真实性	最高，可直接从供应商获得	取决于合同和路由透明度	可能被替换或降级
数据处理	有官方数据政策和企业条款	取决于网关 DPA、日志和 BYOK 模式	不可验证，常见日志留存
稳定性	受官方 SLA/状态页约束	取决于多供应商和自身架构	账号池封禁会导致波动
成本	透明，可审计	可能有 markup，也可能通过路由降本	价格低但计费不可审计
合规	最清晰	要审查供应链	高风险
故障定位	可直接看官方 request id / status	需要网关透传和 trace	很难定位

6. 条款红线

官方 API 的“可集成”和“可倒卖”不是一回事。

OpenAI Services Agreement 允许客户把 API 集成进自己的应用并提供给终端用户，但同时限制账号凭证共享、账号访问转售、API Key 买卖/转让、绕过 rate limits 或 usage limits。也就是说，一个 SaaS 产品调用 OpenAI API 服务自己的用户，和把 OpenAI Key 包成低价中转站转卖，是两种不同法律关系。

Anthropic Commercial Terms 也要求客户遵守支持地区、使用政策和身份核验要求，并限制未经明确批准转售服务或使用服务训练竞争模型。

合规中转通常需要至少满足以下条件：

有上游授权、reseller / partner / marketplace 合同，或客户自带 Key。
能说明终端用户、数据处理者、子处理方和责任边界。
不共享、买卖、租借上游账号或 API Key。
不绕过地理限制、身份验证、速率限制和安全策略。
不把用户日志用于未授权训练、转卖或画像。

7. 如何判断一个中转 API 是否可信

7.1 看价格能否被合法机制解释

可以接受的解释：

“Batch 异步任务 50% 折扣。”
“缓存命中部分按 cached input 计费。”
“低价值请求路由到 Haiku / Flash / mini / DeepSeek。”
“企业合同折扣，有发票和 DPA。”
“自托管开源模型，明确不是官方闭源模型。”

高风险说法：

“官方原版模型，长期 1 折。”
“免实名、免风控、无限量、不会封。”
“所有模型一个价。”
“国内个人收款，无法开票，但企业级安全。”
“不展示上游 provider、request id、usage 明细。”

7.2 要求可审计证据

生产使用前至少要问：

是否支持 BYOK？如果托管 Key，上游是谁？
是否能给出供应商合同、授权转售证明或云市场私有报价？
是否有 DPA、数据保留期、日志脱敏策略、删除机制？
是否支持关闭 prompt/output 日志？
是否透传上游 request id、model id、usage token？
是否能按租户导出账单和 trace？
是否有 SOC 2、ISO 27001 或等价审计？
是否有明确的 breach notification 和子处理方列表？

7.3 用评测而不是“感觉像”

模型替换很难靠闲聊识别。建议准备固定评测集：

长上下文检索：放入私有 canary 文本，检查引用和定位能力。
工具调用：验证 JSON schema、parallel tool calls、错误恢复。
复杂代码任务：固定 repo、固定测试、比较成功率。
多语言和专业任务：用官方 API 做 baseline。
计费对照：同样 prompt 对比 token usage、延迟、输出长度。

不要用“你是谁”“你是不是 Claude”判断模型真实性，这些都能被 system prompt 或响应重写骗过。

7.4 把输入视为会被第三方看到

未知中转站不适合输入：

私有源代码和未发布产品方案。
客户数据、合同、财务、医疗、法务内容。
API Key、Token、cookie、数据库连接串。
内部接口、日志、漏洞细节。
可识别个人信息。

实验阶段也应使用脱敏数据、假密钥、最小权限和单独预算。

8. 工程建议

8.1 生产系统

优先级建议：

官方 API 或官方云市场入口。
有合同、DPA、审计、BYOK、透明路由的正规 AI Gateway。
自建 LiteLLM / Cloudflare AI Gateway / Kong / Envoy 风格网关，自己管理供应商 Key。
明确标注模型来源的自托管开源模型。

不要把企业 Agent、代码 Agent、客服 Agent、RAG、内部知识库接入无法审计的低价中转站。

8.2 成本优化

真正可持续的降本路径：

分层模型路由：简单任务走便宜模型，复杂任务升级。
Prompt caching：把稳定上下文放在前缀，提升 cache hit。
Batch API：离线评测、批量抽取、数据处理异步化。
控制上下文：不要把完整历史和完整文档无脑塞给模型。
工具结果缓存：搜索、网页抓取、数据库查询做 TTL。
成本账本：按 tenant_id / feature / model / request_id 记录真实成本。
回归评测：以 cost per successful task 而不是 token 单价决策。

8.3 个人测试

如果只是个人探索，低价中转可以当“不可信网络服务”看待：

不放真实密钥。
不上传私有代码。
不绑定主邮箱、主手机号、主支付账号。
不长期充值。
不把输出用于高风险决策。
关键任务用官方 API 复核。

9. 核心判断框架

中转价差 = 官方可用折扣
        + 网关路由优化
        + 企业采购折扣
        + 模型降级/替换
        + 计费不透明
        + 账号/订阅/额度套利
        + 用户数据变现
        + 短期补贴或欺诈

前三项可以合规，后五项是主要风险来源。价格越低，越需要解释它属于哪一项。

10. 参考资料

OpenAI API Pricing: https://openai.com/api/pricing/
OpenAI Services Agreement: https://openai.com/policies/services-agreement/
OpenAI API Key Safety: https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety
Anthropic Claude API Pricing: https://docs.anthropic.com/en/docs/about-claude/pricing
Anthropic Batch Processing: https://docs.anthropic.com/en/docs/build-with-claude/batch-processing
Anthropic Prompt Caching: https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching
Anthropic Commercial Terms: https://www.anthropic.com/legal/commercial-terms
Anthropic, Detecting and preventing distillation attacks, 2026-02-23: https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks
Google Gemini API Pricing: https://ai.google.dev/gemini-api/docs/pricing
Google Gemini Context Caching: https://ai.google.dev/gemini-api/docs/caching
DeepSeek Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing
LiteLLM Proxy Quick Start: https://docs.litellm.ai/docs/proxy/quick_start
LiteLLM Virtual Keys: https://docs.litellm.ai/docs/proxy/virtual_keys
LiteLLM Routing & Load Balancing: https://docs.litellm.ai/docs/routing
OpenRouter Provider Routing: https://openrouter.ai/docs/guides/routing/provider-selection
Cloudflare AI Gateway Overview: https://developers.cloudflare.com/ai-gateway/
Cloudflare AI Gateway Caching: https://developers.cloudflare.com/ai-gateway/features/caching/
Cloudflare AI Gateway Dynamic Routing: https://developers.cloudflare.com/ai-gateway/features/dynamic-routing/
vLLM OpenAI-Compatible Server: https://docs.vllm.ai/en/latest/serving/openai_compatible_server/
ChinaTalk, How to Buy Cheap Claude Tokens in China, Zilan Qian, 2026-05-05: https://www.chinatalk.media/p/how-to-buy-cheap-claude-tokens-in
Tom's Hardware 对 ChinaTalk 调查的报道，2026-05-10: https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-grey-market-sells-claude-api-access-at-90-percent-off-through-proxy-networks-that-harvest-user-data

1. 结论先行​

2. 官方 API 本身有哪些降价机制​

2.1 Batch API​

2.2 Prompt / Context Caching​

2.3 Flex / Priority / Data Residency / 区域路由​

2.4 企业折扣、承诺消费和云市场​

2.5 低价模型本来就便宜​

3. 合法中转服务是怎么实现的​

3.1 协议兼容：只改 base_url​

3.2 虚拟 Key 与账本​

3.3 模型路由​

3.4 缓存与批处理​

3.5 自托管兼容模型​

4. 灰产中转为什么能低到离谱​

4.1 免费额度和优惠套利​

4.2 订阅拆分​

4.3 盗刷、盗号和虚假身份​

4.4 模型替换和“掺水”​

4.5 Token 计费不透明​

4.6 日志变现​

4.7 短期补贴和资金盘​

5. 和官方 API 的真实差异​

6. 条款红线​

7. 如何判断一个中转 API 是否可信​

7.1 看价格能否被合法机制解释​

7.2 要求可审计证据​

7.3 用评测而不是“感觉像”​

7.4 把输入视为会被第三方看到​

8. 工程建议​

8.1 生产系统​

8.2 成本优化​

8.3 个人测试​

9. 核心判断框架​

10. 参考资料​